AI产业链地图·知识库 AI Gateway · 概念
🚧 网站建设中 更新 2026·06·17 → 产业链图谱
首页/概念/AI Gateway
更新 2026·06·17
概念 技术 / 术语

AI Gateway

AI 推理网关 · AI 网关 · LLM Gateway

2. 请求可观测性 — Token 计数、延迟、成本统一监控 3. 缓存与去重语义缓存 把相似 prompt 命中缓存 4. 限流与配额 — 防止单用户跑爆账单 5. 失败转移 — 主模型失败时自动 fallback 到备用模型 6. 数据脱敏 / Prompt 防火墙 — 敏感词过滤、SQL 注入防护

AI Gateway CONCEPT · 概念
首次提出
2023
关键参与方
[[Cloudflare]] · [[Akamai]] · [[Fastly]]
反向引用
11 处 · 来自 8
归属 AI-GatewayAI推理第三层Cloudflare

AI Gateway

定义

AI Gateway 是位于应用与多个 AI 模型供应商之间的统一推理网关层,由 ↑ up::Cloudflare 在 2023 年率先推出该名称产品。它解决的核心问题:

  1. 多模型/多供应商统一接入 — 一个 API 调 OpenAI / Anthropic / Google Gemini / Cohere / Mistral / Workers AI
  2. 请求可观测性 — Token 计数、延迟、成本统一监控
  3. 缓存与去重语义缓存 把相似 prompt 命中缓存
  4. 限流与配额 — 防止单用户跑爆账单
  5. 失败转移 — 主模型失败时自动 fallback 到备用模型
  6. 数据脱敏 / Prompt 防火墙 — 敏感词过滤、SQL 注入防护

与传统 API Gateway 的差异

维度 传统 API Gateway AI Gateway
协议 REST / GraphQL / gRPC OpenAI 兼容 API 等 LLM 接口
计费 按请求次数 按 Token 数 + 模型差异
缓存 URL/参数精确匹配 语义相似度匹配语义缓存
监控 QPS / 延迟 / 状态码 Token / 成本 / 模型质量
安全 鉴权 / WAF + Prompt Injection / 数据脱敏

关键产品

产品 厂商 特色
Cloudflare AI Gateway Cloudflare 业内首发 + 全栈集成
Portkey Portkey 开源 + 多语言 SDK
Helicone Helicone 开源 + LLM 可观测
LiteLLM Proxy BerriAI 开源 100+ 模型
Fastly 边缘 AI Fastly + 语义缓存 核心技术
Akamai EdgeKV + AI Akamai 配合 41 DC + Blackwell

商业价值

  1. 降本 — 语义缓存命中可节省 20-50% Token 成本
  2. 降延迟 — 边缘节点 + 本地缓存把 P95 从 1,500ms 降至 100ms
  3. 加速开发 — 模型切换无需改代码
  4. 合规 — 数据在指定 region 处理

在 CDN 全栈中的位置

用户 → CDN 边缘节点 → AI Gateway →
├─ 缓存命中?→ 直接返回(毫秒级)
├─ Workers AI(边缘小模型)→ 边缘 GPU
└─ 中心化大模型(OpenAI/Anthropic)→ 回源

行业趋势

  1. 2026 边缘智能爆发年关键基础设施 — 几乎所有 CDN 厂商都在做 AI Gateway
  2. 企业内部 AI Gateway — 大公司自建多模型路由
  3. 语义缓存 深度绑定 — 不带语义缓存的 AI Gateway 已不具竞争力
  4. 从纯路由到全栈编排 — 链式调用、Agent 流程编排、Tool 调用统一管理

关联

↑ up::CDN 边缘云 ↓ down::OpenAI Anthropic ∈ belongs_to::3-04-边缘节点-网络分发基础设施